近年来,自动对色素,非色素和脱发的非胸膜皮肤病变的分类引起了很多关注。但是,皮肤纹理,病变形状,脱位对比度,照明条件等的成像变化。阻碍了鲁棒的特征提取,从而影响分类精度。在本文中,我们提出了一个新的深神经网络,该网络利用输入数据进行鲁棒特征提取。具体而言,我们分析了卷积网络的行为(视野),以找到深度监督的位置,以改善特征提取。为了实现这一目标,首先,我们执行激活映射以生成对象掩码,突出显示对分类输出生成最重要的输入区域。然后,选择层的有效接收场的网络层与对象掩模中的近似对象形状相匹配,以作为我们进行深度监督的焦点。利用三个黑色素瘤检测数据集和两个白癜风检测数据集上的不同类型的卷积特征提取器和分类器,我们验证了新方法的有效性。
translated by 谷歌翻译
经验重播是深入增强学习(DRL)的重要组成部分,它可以存储经验并为代理商实时学习的经验。最近,优先的经验重播(PER)已被证明是强大的,并且在DRL代理中已广泛部署。但是,由于其频繁和不规则的内存访问,在传统的CPU或GPU架构上实施会造成大量的延迟开销。本文提出了一种硬件软件共同设计方法,以设计基于AMPER的相关内存(AM),并具有AM友好的优先采样操作。 Amper在保留学习绩效的同时,以PER中的Per取代了广泛使用的时间成本的基于Tree-Traversal的优先级抽样。此外,我们设计了基于AM的内存计算硬件体系结构,以通过利用并行的内存搜索操作来支持安珀。与GPU上的每次运行相比,Amper在在拟议的硬件上运行时,在拟议的硬件上运行55倍至270倍的延迟延迟时,显示出可比的学习表现。
translated by 谷歌翻译
Performing 3D dense captioning and visual grounding requires a common and shared understanding of the underlying multimodal relationships. However, despite some previous attempts on connecting these two related tasks with highly task-specific neural modules, it remains understudied how to explicitly depict their shared nature to learn them simultaneously. In this work, we propose UniT3D, a simple yet effective fully unified transformer-based architecture for jointly solving 3D visual grounding and dense captioning. UniT3D enables learning a strong multimodal representation across the two tasks through a supervised joint pre-training scheme with bidirectional and seq-to-seq objectives. With a generic architecture design, UniT3D allows expanding the pre-training scope to more various training sources such as the synthesized data from 2D prior knowledge to benefit 3D vision-language tasks. Extensive experiments and analysis demonstrate that UniT3D obtains significant gains for 3D dense captioning and visual grounding.
translated by 谷歌翻译
深度神经网络(DNNS)的边缘训练是持续学习的理想目标。但是,这受到训练所需的巨大计算能力的阻碍。硬件近似乘数表明,它们在获得DNN推理加速器中获得资源效率的有效性;但是,使用近似乘数的培训在很大程度上尚未开发。为了通过支持DNN培训的近似乘数来构建有效的资源加速器,需要对不同DNN体系结构和不同近似乘数进行彻底评估。本文介绍了近似值,这是一个开源框架,允许使用模拟近似乘数快速评估DNN训练和推理。近似值与TensorFlow(TF)一样用户友好,仅需要对DNN体系结构的高级描述以及近似乘数的C/C ++功能模型。我们通过使用GPU(AMSIM)上的基于基于LUT的近似浮点(FP)乘数模拟器来提高乘数在乘数级别的模拟速度。近似值利用CUDA并有效地将AMSIM集成到张量库中,以克服商业GPU中的本机硬件近似乘数的缺乏。我们使用近似值来评估使用LENET和RESNETS体系结构的小型和大型数据集(包括Imagenet)的近似乘数的DNN训练的收敛性和准确性。与FP32和BFLOAT16乘数相比,评估表明测试准确性相似的收敛行为和可忽略不计的变化。与训练和推理中基于CPU的近似乘数模拟相比,GPU加速近似值快2500倍以上。基于具有本地硬件乘数的高度优化的闭合源Cudnn/Cublas库,原始张量量仅比近似值快8倍。
translated by 谷歌翻译
在本文中,提出了一种基于知识的基于知识的遗传算法,用于在非结构化复杂环境中移动机器人的路径规划,其中提出了五个特定于问题的操作员以进行有效的机器人路径计划。提出的遗传算法将机器人路径计划的领域知识纳入其专业操作员,其中一些也结合了局部搜索技术。提出了一种独特而简单的表示,并开发了一种简单但有效的路径评估方法,可以准确检测到碰撞,并且机器人路径的质量得到很好的反映。所提出的算法能够在静态和动态复杂环境中找到近乎最佳的机器人路径。通过模拟研究证明了所提出算法的有效性和效率。通过比较研究证明了专业遗传算子在解决机器人路径计划问题的拟议遗传算法中的不可替代作用。
translated by 谷歌翻译
人工智能(AI)算法的质量对于在网络安全,医疗保健和自动驾驶等各种应用中自信采用算法至关重要。这项工作提出了一个原则上的框架,该框架使用实验设计的方法系统地评估AI算法的质量,称为DO-AIQ。具体而言,我们专注于研究针对数据中毒的AI Mislabel数据算法的质量。 AI算法的性能受到算法和数据质量中的超参数的影响,尤其是数据错误标签,类不平衡和数据类型。为了评估AI算法的质量并获得有关算法质量的值得信赖的评估,我们建立了经验设计框架,以在高维约束空间中构建有效的空间填充设计并开发有效的替代模型使用加性高斯工艺来实现AI算法质量的仿真。进行了理论和数值研究,以证明所提出框架的优点是合理的。所提出的框架可以为AI算法设置一个示例,以增强对鲁棒性,可重复性和透明度的AI保证。
translated by 谷歌翻译
基于新兴的非易失性记忆(NVM)设备基于内存的计算(CIM)体系结构,由于其高能量效率,具有深度神经网络(DNN)加速的巨大潜力。但是,NVM设备遭受了各种非理想性,尤其是由于设备的随机行为而导致的制造缺陷和周期到周期变化引起的设备对设备变化。因此,实际上映射到NVM设备的DNN权重可能显着偏离预期值,从而导致大量性能降解。为了解决这个问题,大多数现有的作品都集中在设备变化下的平均性能最大化。这个目标对于通用场景非常有效。但是对于关键安全应用,还必须考虑最差的案例性能。不幸的是,文献中很少探索这一点。在这项工作中,我们制定了确定在设备变化影响下CIM DNN加速器最差的问题的问题。我们进一步提出了一种方法,可以有效地找到高维空间中设备变化的特定组合,从而导致最差的性能。我们发现,即使设备变化很小,DNN的准确性也会大幅度下降,在部署CIM加速器中在安全至关重要的应用中引起担忧。最后,我们表明,令人惊讶的是,在扩展时,没有一种用于提高CIM加速器中平均DNN性能的现有方法非常有效,以增强最差的性能,并且需要进一步的研究来解决此问题。
translated by 谷歌翻译
本文介绍了一种开源平台,可快速发展计算机视觉应用。该平台在机器学习开发过程的中心进行了高效的数据开发,集成了主动学习方法,数据和型号版本控制,并使用项目等概念,以便并行启用多个任务特定数据集的快速迭代。我们通过将开发过程抽象到核心状态和操作中,设计开放式平台,并设计开放API,将第三方工具集成为操作的实现。这种开放式设计降低了ML与现有工具的ML团队的开发成本和采用费用。与此同时,该平台支持录制项目开发历史记录,可以共享成功的项目,以进一步提高类似任务的模型生产效率。该平台是开源的,已经在内部使用,以满足自定义现实世界计算机视觉应用程序的日益增长的需求。
translated by 谷歌翻译
Classical methods for acoustic scene mapping require the estimation of time difference of arrival (TDOA) between microphones. Unfortunately, TDOA estimation is very sensitive to reverberation and additive noise. We introduce an unsupervised data-driven approach that exploits the natural structure of the data. Our method builds upon local conformal autoencoders (LOCA) - an offline deep learning scheme for learning standardized data coordinates from measurements. Our experimental setup includes a microphone array that measures the transmitted sound source at multiple locations across the acoustic enclosure. We demonstrate that LOCA learns a representation that is isometric to the spatial locations of the microphones. The performance of our method is evaluated using a series of realistic simulations and compared with other dimensionality-reduction schemes. We further assess the influence of reverberation on the results of LOCA and show that it demonstrates considerable robustness.
translated by 谷歌翻译
We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.
translated by 谷歌翻译